神经切线内核(NTK)是分析神经网络及其泛化界限的训练动力学的强大工具。关于NTK的研究已致力于典型的神经网络体系结构,但对于Hadamard产品(NNS-HP)的神经网络不完整,例如StyleGAN和多项式神经网络。在这项工作中,我们为特殊类别的NNS-HP(即多项式神经网络)得出了有限宽度的NTK公式。我们证明了它们与关联的NTK与内核回归预测变量的等效性,该预测扩大了NTK的应用范围。根据我们的结果,我们阐明了针对外推和光谱偏置,PNN在标准神经网络上的分离。我们的两个关键见解是,与标准神经网络相比,PNN能够在外推方案中拟合更复杂的功能,并承认相应NTK的特征值衰减较慢。此外,我们的理论结果可以扩展到其他类型的NNS-HP,从而扩大了我们工作的范围。我们的经验结果验证了更广泛的NNS-HP类别的分离,这为对神经体系结构有了更深入的理解提供了良好的理由。
translated by 谷歌翻译
我们研究(选定的)宽,狭窄,深而浅,较浅,懒惰和非懒惰的训练环境中(选定的)深度神经网络中的平均鲁棒性概念。我们证明,在参数不足的环境中,宽度具有负面影响,而在过度参数化的环境中提高了鲁棒性。深度的影响紧密取决于初始化和训练模式。特别是,当用LeCun初始化初始化时,深度有助于通过懒惰训练制度进行稳健性。相反,当用神经切线核(NTK)初始化并进行初始化时,深度会损害稳健性。此外,在非懒惰培训制度下,我们演示了两层relu网络的宽度如何使鲁棒性受益。我们的理论发展改善了Huang等人的结果。[2021],Wu等。[2021]与Bubeck and Sellke [2021],Bubeck等人一致。[2021]。
translated by 谷歌翻译
神经体系结构搜索(NAS)促进了神经体系结构的自动发现,从而实现了图像识别的最新精度。尽管NAS取得了进展,但到目前为止,NAS对理论保证几乎没有关注。在这项工作中,我们研究了NAS在统一框架下的概括属性,从而实现(深)层跳过连接搜索和激活功能搜索。为此,我们从搜索空间(包括混合的激活功能,完全连接和残留的神经网络)的(包括)有限宽度方向上得出了神经切线核的最小特征值的下(和上)边界。由于在统一框架下的各种体系结构和激活功能的耦合,我们的分析是不平凡的。然后,我们利用特征值边界在随机梯度下降训练中建立NAS的概括误差界。重要的是,我们从理论上和实验上展示了衍生结果如何指导NAS,即使在没有培训的情况下,即使在没有培训的情况下,也可以根据我们的理论进行无训练的算法。因此,我们的数值验证阐明了NAS计算有效方法的设计。
translated by 谷歌翻译
多项式网络(PNS)最近在面部和图像识别方面表现出了有希望的表现。但是,PNS的鲁棒性尚不清楚,因此获得证书对于使其在现实世界应用中的采用至关重要。基于分支和绑定(BAB)技术的Relu神经网络(NNS)上的现有验证算法不能微不足道地应用于PN验证。在这项工作中,我们设计了一种新的边界方法,该方法配备了BAB,用于全球融合保证,称为VPN。一个关键的见解是,我们获得的边界比间隔结合的传播基线更紧密。这可以通过MNIST,CIFAR10和STL10数据集的经验验证进行声音和完整的PN验证。我们认为我们的方法对NN验证具有自身的兴趣。
translated by 谷歌翻译
音频合成中的时频(TF)表示已越来越多地通过实价网络建模。但是,忽略TF表示的复杂值的性质可能会导致次优性能,并且需要其他模块(例如,用于对阶段进行建模)。为此,我们介绍了称为Apollo的复杂价值的多项式网络,该网络以自然方式集成了这种复杂值的表示。具体而言,阿波罗使用高阶张量作为缩放参数捕获输入元件的高阶相关性。通过利用标准张量分解,我们得出了不同的体系结构并启用建模更丰富的相关性。我们概述了这样的体系结构,并在四个基准测试中展示了它们在音频发电中的性能。重点,阿波罗(Apollo)在音频生成中SC09数据集中的最先进的扩散模型比对抗方法的$ 17.5 \%$改进,而$ 8.2 \%$。我们的模型可以鼓励在复杂领域的其他高效体系结构进行系统的设计。
translated by 谷歌翻译
生成的对抗网络(GANS)是在图像生成中最先进的驱动力。尽管他们能够合成高分辨率的照片真实图像,但在不同粒度的按需调节产生内容仍然是一个挑战。这一挑战通常是通过利用兴趣属性的大规模数据集,这是一个并不总是可行的选项的艰巨任务。因此,将控制进入无监督的生成模型的生成过程至关重要。在这项工作中,我们通过利用以无监督的时尚训练良好的GAN来专注于可控制的图像。为此,我们发现发电机的中间层的表示空间形成多个集群,该集群将数据分离为根据语义​​有意义的属性(例如,头发颜色和姿势)。通过在群集分配上调节,所提出的方法能够控制生成图像的语义类。我们的方法使通过隐式最大似然估计(IMLE)从每个集群中采样。我们使用不同的预先培训的生成模型展示我们对面孔(Celeba-HQ和FFHQ),动物(Imagenet)和物体(LSUN)的效果。结果突出了我们在面孔上像性,姿势和发型等属性的条件图像生成的能力,以及不同对象类别的各种功能。
translated by 谷歌翻译
深度神经网络一直是分类任务成功的推动力,例如对象和音频识别。许多最近提出的架构似乎已经取得了令人印象深刻的结果和概括,其中大多数似乎是断开连接的。在这项工作中,我们在统一框架下对深层分类器进行了研究。特别是,我们以输入的不同程度多项式的形式表达最新的结构(例如残留和非本地网络)。我们的框架提供了有关每个模型的电感偏差的见解,并可以在其多项式性质上进行自然扩展。根据标准图像和音频分类基准评估所提出模型的功效。提出的模型的表达性既是在增加模型性能和模型压缩方面都突出的。最后,在存在有限的数据和长尾数据分布的情况下,此分类法所允许的扩展显示。我们希望这种分类法可以在现有特定领域的架构之间提供联系。源代码可在\ url {https://github.com/grigorisg9gr/polynomials-for-aigmenting-nns}中获得。
translated by 谷歌翻译
数据苛刻机器学习方法的扩散旨在利用基于规则的方法来扩大培训数据集的大小的方法的必要性。本文提出的指纹增强方案在线符合此概念,旨在增加用于训练定位模型的指纹数据集。该方法利用了以空间接近记录的指纹,以便执行指纹增强,从而创建结合原始特征的新指纹。构成新的增强指纹的建议方法是受到遗传算法的交叉和突变运算符的启发。 Proxyfaug方法旨在通过引入基于规则的,随机接近的指纹增强方法来提高指纹数据集的可实现定位精度。使用公共数据集在室外Sigfox设置中评估Proxyfaug的性能。在使用增强数据集的情况下,在中位误差和6%的中位误差和6%的最佳表现发布的定位方法得到了40%。结果分析表明,下误差四分位数的系统和显着性能改善,如中间误差的令人印象深刻的提高所示。
translated by 谷歌翻译
While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.
translated by 谷歌翻译
Attention mechanisms form a core component of several successful deep learning architectures, and are based on one key idea: ''The output depends only on a small (but unknown) segment of the input.'' In several practical applications like image captioning and language translation, this is mostly true. In trained models with an attention mechanism, the outputs of an intermediate module that encodes the segment of input responsible for the output is often used as a way to peek into the `reasoning` of the network. We make such a notion more precise for a variant of the classification problem that we term selective dependence classification (SDC) when used with attention model architectures. Under such a setting, we demonstrate various error modes where an attention model can be accurate but fail to be interpretable, and show that such models do occur as a result of training. We illustrate various situations that can accentuate and mitigate this behaviour. Finally, we use our objective definition of interpretability for SDC tasks to evaluate a few attention model learning algorithms designed to encourage sparsity and demonstrate that these algorithms help improve interpretability.
translated by 谷歌翻译